DataShare | 6000+个股票的每日财经新闻

Original 大邓大邓和他的Python 2022-07-09

收录于合集

整理自
https://www.kaggle.com/miguelaenlle/massive-stock-news-analysis-db-for-nlpbacktests
https://github.com/bot-developer3/Scraping-Tools-Benzinga.

文末有数据获取方式

背景

获得高质量（历史）股市新闻数据既困难又昂贵；
订阅历史新闻数据提供商服务可能需要花费数千美元。

在这里，我将直接从其来源中抓取的股票新闻数据编译成易于使用的格式。我还在此处提供了用于获取此数据的脚本以及我用于个人实时交易此数据的脚本:

数据集

采集了6000只股票2009-2020年间的4万条新闻文章

raw_analyst_ratings.csv

直接抓取分析师评级数据，有1034位分析师对6204只股票进行了股票分析，分析记录累积1407328条, 字段包括：索引、标题、URL、文章作者（出版商总是benzinga）、出版时间戳、股票代码。

请注意，此 CSV 文件中的所有日期均不包含精确的时分秒信息。如果您打算使用此文件进行回测（analyst_ratings_processed.csv 更好），请假设文章是在第二天而不是当前文章中显示的日期发布的。

import pandas as pd
pd.set_option('display.max_columns', None)

analyst_ratings_df = pd.read_csv('data/raw_analyst_ratings.csv')
analyst_ratings_df.head()

len(analyst_ratings_df)

#有6204个股票
analyst_ratings_df.stock.nunique()

#分析师有1034位
analyst_ratings_df.publisher.nunique()

raw_partner_headlines.csv

直接抓取原始新闻标题，共有1845559条记录, 字段包括：索引、标题、URL、出版商（不是 benzinga）、日期、股票行情。

partner_headlines_df = pd.read_csv('data/raw_partner_headlines.csv')partner_headlines_df.head()

len(partner_headlines_df)

analyst_ratings_processed.csv

处理过的分析师评级数据，共有1400469条记录，字段包括：文章标题，日期，股票

时区为 UTC-4。这与 raw_analys_theadlines 之间的区别在于，它具有精确到分钟的日期，而 raw_analys_tratings 只是没有小时或分钟的那一天。

analyst_ratings_processed_df = pd.read_csv('data/analyst_ratings_processed.csv')analyst_ratings_processed_df.head()

len(analyst_ratings_processed_df)

注意

数据爬自benzinga.com，新闻内容版权归Benzinga所有。

数据获取

链接:https://pan.baidu.com/s/1ATlEqfjaWsW0pq6wup5YaQ
密码:19l1

腾讯课堂 | Python网络爬虫与文本数据分析
预报名 | 结构模型、Stata实证前沿、Python数据挖掘国庆工作坊
读完本文你就了解什么是文本分析
文本分析在经管领域中的应用概述
综述:文本分析在市场营销研究中的应用
文本分析方法在《管理世界》（2021.5）中的应用
B站视频 | Python自动化办公
wordexpansion包 | 新增词向量法构建领域词典
语法最简单的微博通用爬虫weibo_crawler
hiResearch 定义自己的科研首页
大邓github汇总，觉得有用记得star
whatlies包 | 简单玩转词向量可视化
multistop ~ 多语言停用词库
Jaal 库轻松绘制动态社交网络关系图
SciencePlots | 科研样式绘图库
使用streamlit上线中文文本分析网站
爬虫实战 | 采集&可视化知乎问题的回答
plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库
Wow~70G上市公司定期报告数据集
漂亮~pandas可以无缝衔接Bokeh
YelpDaset: 酒店管理类数据集10+G

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

DataShare | 6000+个股票的每日财经新闻

背景

数据集

raw_analyst_ratings.csv

raw_partner_headlines.csv

analyst_ratings_processed.csv

注意

广告

数据获取

近期文章

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

DataShare | 6000+个股票的每日财经新闻

背景

数据集

raw_analyst_ratings.csv

raw_partner_headlines.csv

analyst_ratings_processed.csv

注意

广告

数据获取

近期文章

您可能也对以下帖子感兴趣